Recent advances on text-to-image generation have witnessed the rise of diffusion models which act as powerful generative models. Nevertheless, it is not trivial to exploit such latent variable models to capture the dependency among discrete words and meanwhile pursue complex visual-language alignment in image captioning. In this paper, we break the deeply rooted conventions in learning Transformer-based encoder-decoder, and propose a new diffusion model based paradigm tailored for image captioning, namely Semantic-Conditional Diffusion Networks (SCD-Net). Technically, for each input image, we first search the semantically relevant sentences via cross-modal retrieval model to convey the comprehensive semantic information. The rich semantics are further regarded as semantic prior to trigger the learning of Diffusion Transformer, which produces the output sentence in a diffusion process. In SCD-Net, multiple Diffusion Transformer structures are stacked to progressively strengthen the output sentence with better visional-language alignment and linguistical coherence in a cascaded manner. Furthermore, to stabilize the diffusion process, a new self-critical sequence training strategy is designed to guide the learning of SCD-Net with the knowledge of a standard autoregressive Transformer model. Extensive experiments on COCO dataset demonstrate the promising potential of using diffusion models in the challenging image captioning task. Source code is available at \url{https://github.com/YehLi/xmodaler/tree/master/configs/image_caption/scdnet}.
translated by 谷歌翻译
空间红外的小型船舶检测旨在将小型船只与轨道轨道捕获的图像分开。由于图像覆盖面积极大(例如,数千平方公里),这些图像中的候选目标比空中基于天线和陆基成像设备观察到的目标要小得多,二聚体,更可变。现有的简短成像基于距离的红外数据集和目标检测方法不能很好地用于空间监视任务。为了解决这些问题,我们开发了一个空间红外的小型船舶检测数据集(即Nudt-Sirst-Sea),该数据集具有48个空间基红外图像和17598像素级的小型船上注释。每个图像覆盖约10000平方公里的面积,带有10000x10000像素。考虑到这些充满挑战的场景,考虑到这些微小的船只的极端特征(例如,小,昏暗,可变的),我们在本文中提出了多层Transunet(MTU-NET)。具体而言,我们设计了视觉变压器(VIT)卷积神经网络(CNN)混合编码器来提取多层次特征。首先将局部特征图用几个卷积层提取,然后馈入多级特征提取模块(MVTM)以捕获长距离依赖性。我们进一步提出了一种拷贝性衡量量 - 帕斯特(CRRP)数据增强方法,以加速训练阶段,从而有效地减轻了目标和背景之间样本不平衡问题的问题。此外,我们设计了一个焦点损失,以实现目标定位和形状描述。 NUDT-SIRST-SEA数据集的实验结果表明,就检测概率,错误警报率和联合交集的交集而言,我们的MTU-NET优于传统和现有的基于深度学习的SIRST方法。
translated by 谷歌翻译
视觉问题回答是自然语言和愿景理解的重要任务。但是,在大多数公众视觉问题上回答了诸如VQA,CLEVR之类的数据集,这些问题是针对给定图像的特定于“她的眼睛是什么颜色?”的人类产生的。人类产生的众包问题相对简单,有时对某些实体或属性有偏见。在本文中,我们介绍了一个基于Image-Chiqa的新问题回答数据集。它包含Internet用户发布的现实查询,并结合了几个相关的开放域图像。系统应确定图像是否可以回答问题。与以前的VQA数据集不同,这些问题是现实世界中独立的查询,这些查询更加各种和无偏见。与先前的图像回程或图像捕获数据集相比,Chiqa不仅衡量了相关性,而且还可以衡量答案性,这需要更细粒度的视力和语言推理。 Chiqa包含超过40k的问题和超过200k的问题图像对。将三级2/1/0标签分配给每个对,指示完美的答案,部分答案和无关紧要。数据分析表明,Chiqa需要对语言和视觉有深入的了解,包括接地,比较和阅读。我们评估了几种最先进的视觉语言模型,例如ALBEF,表明仍然有一个很大的改进奇卡的空间。
translated by 谷歌翻译
在发展强化学习(RL)培训系统方面取得了重大进展。过去的作品,例如Impala,Apex,Seed RL,样本工厂等,旨在改善系统的整体吞吐量。在本文中,我们试图解决RL训练系统中的常见瓶颈,即平行环境执行,这通常是整个系统中最慢的部分,但很少受到关注。通过针对RL环境的策划设计,我们改善了不同硬件设置的RL环境模拟速度,从笔记本电脑和适度的工作站到NVIDIA DGX-A100等高端机器。在高端机器上,Envpool在Atari环境上的环境执行每秒可实现100万帧,在Mujoco环境上每秒执行300万帧。在笔记本电脑上运行时,Envpool的速度是Python子过程的2.8倍。此外,在开源社区中已经证明了与现有RL培训库的极大兼容性,包括Cleanrl,RL_Games,DeepMind Acme等。最后,Envpool允许研究人员以更快的速度迭代他们的想法,并具有巨大的潜力,并具有巨大的潜力事实上的RL环境执行引擎。示例运行表明,在笔记本电脑上训练Atari Pong和Mujoco Ant只需5分钟即可。 Envpool已经在https://github.com/sail-sg/envpool上开源。
translated by 谷歌翻译
大量网络视频的杠杆作用以及搜索的查询或周围文本(例如标题)提供了一种经济且可扩展的替代方案,可用于监督视频表示学习。然而,由于查询多义(即查询的许多可能的含义)和文本同构(即不同文本的相同句法结构),对这种弱视文的连接进行建模并不是微不足道的。在本文中,我们介绍了查询和文本之间相互校准的新设计,以增强弱监督视频表示的学习。具体而言,我们提出了双重校准网络(BCN),这些网络在新颖地融合了两个校准,以学习从文本到查询的修正案,反之亦然。从技术上讲,BCN在通过相同查询搜索的视频的所有标题上执行聚类,并将每个集群的质心作为文本原型。查询词汇直接建立在查询单词上。对文本原型/查询词汇的视频对文本/视频对话预测,然后启动文本或查询到文本校准,以估算修正案以查询或文本。我们还设计了一个选择方案来平衡两个校正。两个大规模的网络视频数据集与查询和每个视频的标题配对,新收集到弱监督视频表示的学习中,分别命名为Yovo-3M和Yovo-10m。 BCN在3M Web视频上学习的视频功能在下游任务的线性模型协议下获得了卓越的结果。更值得注意的是,BCN在较大的10m网络视频中培训,进一步的微调导致1.6%,而动力学400的TOP-1准确性获得1.8%,而在最先进的情况下,一些v2数据集的v2数据集则是1.6%。 - ART TDN和ImageNet预训练的动作网方法。源代码和数据集可在\ url {https://github.com/fuchenustc/bcn}上获得。
translated by 谷歌翻译
作为视频的独特性,运动对于开发视频理解模型至关重要。现代深度学习模型通过执行时空3D卷积来利用运动,将3D卷积分别分为空间和时间卷积,或者沿时间维度计算自我注意力。这种成功背后的隐含假设是,可以很好地汇总连续帧的特征图。然而,该假设可能并不总是对具有较大变形的地区特别存在。在本文中,我们提出了一个新的框架间注意区块的食谱,即独立框架间注意力(SIFA),它在新颖的情况下深入研究了整个框架的变形,以估计每个空间位置上的局部自我注意力。从技术上讲,SIFA通过通过两个帧之间的差来重新缩放偏移预测来重新缩放可变形设计。将每个空间位置在当前帧中作为查询,下一帧中的本地可变形邻居被视为键/值。然后,SIFA衡量查询和键之间的相似性是对加权平均时间聚集值的独立关注。我们进一步将SIFA块分别插入Convnet和Vision Transformer,以设计SIFA-NET和SIFA-TransFormer。在四个视频数据集上进行的广泛实验表明,SIFA-NET和SIFA转换器的优越性是更强的骨架。更值得注意的是,SIFA转换器在动力学400数据集上的精度为83.1%。源代码可在\ url {https://github.com/fuchenustc/sifa}中获得。
translated by 谷歌翻译
BERT型结构导致了视觉语言预培训的革命,并在众多视觉语言下游任务上实现最先进的结果。现有解决方案主要用掩码令牌的多模态输入大小化,以触发基于掩码的代理预训练任务(例如,屏蔽语言建模和屏蔽对象/帧预测)。在这项工作中,我们认为这种掩码的输入将不可避免地引入跨模型匹配代理任务的噪声,从而留下探索的固有视觉语言协会。作为替代方案,我们推导出一种特定形式的用于视频预培训的跨模型代理目标,即对比跨模型匹配和去噪(Coco)。通过将蒙版帧/单词序列视为主要取消屏蔽的噪声增强,通过同时追求掩蔽和未掩蔽输入之间的模态匹配和模态匹配和模态的帧间匹配和模态的帧内偏离,通过对比方式来加强视频协会。我们的CoCo代理目标可以进一步集成到用于视频预训练的任何BERT型编码器解码器结构中,被命名为对比跨模态伯特(Coco-Bert)。我们在电视数据集上预先火车Coco-Bert以及新收集的大型GIF视频数据集(动作)。通过广泛的下游任务(例如,跨模型检索,视频问题回答和视频标题)进行广泛的实验,我们证明了Coco-Bert作为预训练的结构的优越性。
translated by 谷歌翻译
深度神经网络(DNN)已广泛采用健康风险预测,以提供医疗保健诊断和治疗。为了评估其稳健性,现有研究在型号参数可访问的白色/灰度箱设置中进行对抗性攻击。然而,即使大多数现实世界的型号训练私有数据并在云上作为黑匣子服务发布,也是更现实的黑盒对抗性攻击。为了填补这一差距,我们提出了针对Medattacker的健康风险预测模型的第一个黑匣子对抗攻击方法来调查他们的脆弱性。 MedAttacker通过两个步骤解决了EHR数据所带来的挑战:层次定位选择,它选择强化学习(RL)框架中的攻击位置并替换替代替代基于分数的原则。特别是,通过考虑EHR中的时间上下文,它通过使用每次访问的贡献分数和每个代码的显着分数来初始化其RL位置选择策略,这可以与决定性变化决定的确定性替代选择过程很好地集成。在实验中,Medattacker始终如一地实现了最高的平均成功率,并且在某些情况下攻击了在多次真实数据集中的黑匣子环境中的三个高级健康风险预测模型时,最近的白盒EHR对抗攻击技术甚至优于最近的白盒EHR对抗性攻击技术。此外,基于实验结果,我们包括讨论捍卫EHR对抗性攻击。
translated by 谷歌翻译
Weakly-supervised object localization aims to indicate the category as well as the scope of an object in an image given only the image-level labels. Most of the existing works are based on Class Activation Mapping (CAM) and endeavor to enlarge the discriminative area inside the activation map to perceive the whole object, yet ignore the co-occurrence confounder of the object and context (e.g., fish and water), which makes the model inspection hard to distinguish object boundaries. Besides, the use of CAM also brings a dilemma problem that the classification and localization always suffer from a performance gap and can not reach their highest accuracy simultaneously. In this paper, we propose a casual knowledge distillation method, dubbed KD-CI-CAM, to address these two under-explored issues in one go. More specifically, we tackle the co-occurrence context confounder problem via causal intervention (CI), which explores the causalities among image features, contexts, and categories to eliminate the biased object-context entanglement in the class activation maps. Based on the de-biased object feature, we additionally propose a multi-teacher causal distillation framework to balance the absorption of classification knowledge and localization knowledge during model training. Extensive experiments on several benchmarks demonstrate the effectiveness of KD-CI-CAM in learning clear object boundaries from confounding contexts and addressing the dilemma problem between classification and localization performance.
translated by 谷歌翻译
In this paper, a semantic communication framework for image transmission is developed. In the investigated framework, a set of servers cooperatively transmit images to a set of users utilizing semantic communication techniques. To evaluate the performance of studied semantic communication system, a multimodal metric is proposed to measure the correlation between the extracted semantic information and the original image. To meet the ISS requirement of each user, each server must jointly determine the semantic information to be transmitted and the resource blocks (RBs) used for semantic information transmission. We formulate this problem as an optimization problem aiming to minimize each server's transmission latency while reaching the ISS requirement. To solve this problem, a value decomposition based entropy-maximized multi-agent reinforcement learning (RL) is proposed, which enables servers to coordinate for training and execute RB allocation in a distributed manner to approach to a globally optimal performance with less training iterations. Compared to traditional multi-agent RL, the proposed RL improves the valuable action exploration of servers and the probability of finding a globally optimal RB allocation policy based on local observation. Simulation results show that the proposed algorithm can reduce the transmission delay by up to 16.1% compared to traditional multi-agent RL.
translated by 谷歌翻译